香港中文大学联合牛津大学等机构：给AI装上"战略大脑"

这项由香港中文大学、上海人工智能实验室、乔治亚大学、牛津大学以及深圳鹏城实验室联合开展的研究，于2026年5月发布在预印本平台arXiv上，论文编号为arXiv:2605.06642。研究提出了一个名为StraTA（Strategic Trajectory Abstraction，战略轨迹抽象）的全新框架，致力于解决AI智能体在长时间复杂任务中"走一步看一步"的根本性缺陷。

你有没有遇到过这样的情况：和朋友打牌时，有人每次只盯着眼前那张牌，完全没有全局意识，最终一步步把自己逼进死角？而高手则不然——他们在看到牌局开始的那一刻，心里就已经有了大致的作战计划，每一步行动都在朝着这个计划推进。现在，AI领域也面临着同样的问题，而这篇论文正是为了帮AI学会"高手打牌"的本领。

当前，像ChatGPT这样的大语言模型（LLM）越来越多地被部署为能与外部世界交互的"AI智能体"——它们能搜索网页、操作电脑、甚至做科学实验。然而，研究人员发现，这些智能体普遍存在一个深层缺陷：它们在每一步行动时，只能看着当前的环境状态，然后决定下一步做什么，对全局方向几乎没有概念。这就导致了三个典型问题：目光短浅（只看眼前，不顾长远）、无效绕路（在原地反复打转）、行为前后矛盾（这一步说要找A，下一步又去找B）。

StraTA的核心思路，就是在AI开始执行任务之前，先让它给自己定一个"战略"。这个战略就像是一张地图，之后每一步的具体行动都要参照这张地图来进行。听起来简单，但实现起来需要一整套精密的训练机制。

一、为什么AI智能体总是"走一步看一步"

在正式介绍StraTA之前，有必要先搞清楚AI智能体训练的基本逻辑，以及为什么现有方法会产生"短视"问题。

以一个常见的场景为例：让AI智能体在一个模拟的网购平台上帮你找一双"高密度、孪生尺寸、价格低于550美元的弹簧床垫"。这个任务需要AI先搜索，再浏览结果页，再点进去看详情，再判断是否符合要求，再决定是否购买——整个过程可能需要十几步甚至更多，而且每一步的决策都会影响后面的走向。

现有的主流训练方法，比如强化学习（Reinforcement Learning），基本思路是让AI不断尝试，根据最终结果（成功或失败）来调整自己的行为策略。其中有一种叫做GRPO（Group Relative Policy Optimization，组相对策略优化）的方法，是最近非常流行的技术路线：对于同一个任务，让AI做多次尝试，看看哪些尝试成功了，哪些失败了，然后鼓励AI向成功的方向靠拢。

但这里有一个根本性的困难：在长达几十步的任务中，最终的成功或失败是一个结果，而这个结果需要被"归因"到每一步具体行动上——究竟是哪一步导致了成功，哪一步埋下了失败的伏笔？这个问题在学术上叫做"信用分配"（credit assignment），是长时决策任务中最棘手的难题之一。

同时，现有方法在"探索"方面也很受限。由于没有全局方向感，AI在尝试不同策略时，往往只是在细节上做微小变化，而不能真正尝试完全不同的解决思路。就像一个没有战略的棋手，每次下棋都只是换了几个细节操作，从来没有真正尝试过完全不同的开局布局。

二、战略先行：StraTA框架的核心思想

StraTA的解法听起来很朴素，却抓住了问题的本质。

在每次执行任务开始之前，AI会先生成一段简短的自然语言"战略"。这段战略不是具体的步骤清单，而是对整个任务的高层次规划，比如"先通过搜索关键词定位候选产品，然后根据用户要求筛选价格和规格，找到最符合条件的选项购买"。这段战略一旦生成，就会被固定下来，并在后续的每一步行动中作为背景提示，始终陪伴着AI的决策过程。

可以把这个机制理解为：AI在出发前给自己写了一张"任务简报"，之后不管走到哪一步，都要时刻对照这张简报来行动。这与人类解决复杂问题的方式高度一致——人们通常先在脑海中形成一个大致计划，然后在执行过程中随时参照这个计划调整具体动作。

这样做的好处是显而易见的：整个长时任务被拆解成了两个更简单的子任务。第一个是"想出一个好战略"，第二个是"按照战略执行动作"。这两个子任务各自相对独立，AI可以针对每一个分别优化，而不必在每一步都同时考虑"下一步该怎么做"和"整体方向是什么"这两个互相干扰的问题。

三、分层训练：让战略和行动都能被有效学习

StraTA不仅提出了"战略先行"的思路，还设计了一套精密的训练机制来确保AI能真正学会生成好战略、执行好动作。

对于同一个任务，AI会先生成N个不同的战略，然后在每个战略下分别执行M次完整的任务尝试。这样一来，总共有N×M条完整的执行轨迹。这个设计形成了一个两层的对比结构：在战略层面，N个不同战略之间可以相互比较，哪个战略下的任务成功率更高，AI就应该倾向于生成那类战略；在行动层面，同一个战略下的M次尝试之间也可以相互比较，哪些具体动作序列更容易成功，AI就应该更多地输出那些动作。

这里有一个特别巧妙的设计：在评估一个战略的"好坏"时，研究团队没有简单地取M次执行的平均成功率，而是只看表现最好的那一部分（具体来说是成功率最高的前50%的执行结果）。这背后有一个深刻的道理：一个战略即便是好的，在执行早期AI还不熟练的时候，也可能经常因为执行失误而失败。如果把所有执行结果一起平均，好战略会被糟糕的执行拖累，导致AI认为那个战略没价值。只看最好表现，就能更准确地反映这个战略本身的潜力，而不是被执行噪音所干扰。

除了主要的成功/失败奖励，训练系统还引入了两个辅助惩罚机制。其一是长度惩罚：如果AI的回答过长，超出了预设的限制，就会被扣分——这是为了防止AI养成"废话连篇"的坏习惯。其二是格式惩罚：如果AI的输出格式不对、环境无法识别，也会被扣分——这保证了AI的输出始终可被实际执行。

四、多样性探索：让AI不要每次都想到一样的战略

即便有了上述的分层训练机制，研究团队很快发现了另一个问题：当AI被要求生成N个不同战略时，即便调高了"随机性"参数，生成出来的N个战略往往大同小异，只有细节上的微小差异，并没有真正不同的思路。这就好像让你用头脑风暴想出10个解决问题的方案，但你每次都只是在同一个思路上做微调，从来不敢跳出固有框架。

为了解决这个问题，研究团队引入了一个叫做"最远点采样"（Farthest Point Sampling）的技术。具体操作分两步：首先，系统会让AI生成远超N个的候选战略（比如设定过采样比例σ=8，就生成8N个候选战略）；然后，系统会用一个文本理解模型把每个战略转换为一个数学向量，并在这些向量构成的"语义空间"中，用一种贪心算法挑选出N个彼此之间"距离最远"的战略——也就是语义内容最不相似的那N个。

这个过程就像是在一个地图上撒了很多点（候选战略），然后从中挑选出分布最均匀、覆盖最广的N个点，确保这N个战略能代表尽可能不同的解题思路。这样一来，战略层面的比较就变得更有意义了：AI能看到真正不同的策略方向之间的成败对比，而不是一堆大同小异的变体。实验结果也验证了这一点——加入多样性采样后，AI在ALFWorld环境中的整体成功率从79.0%提升到了87.9%。

五、自我审判：让AI回头检查自己有没有乱走步

StraTA引入的第三个关键机制叫做"批判性自我判断"（Critical Self-judgment），专门用来解决"信用分配"这个老大难问题。

在传统的强化学习框架下，一次任务执行完成后，AI只会收到一个最终的成功/失败信号，这个信号会被均等地分配给轨迹中的每一步行动。但这显然不够精确：有些步骤确实推进了任务，有些步骤纯粹是在浪费时间，还有些步骤可能根本就违背了战略方向。把同样的信号分配给所有步骤，AI就没法辨别哪些是好动作、哪些是坏动作。

StraTA的解法是：在每次任务执行完成后，让AI回过头来，对照自己最初制定的战略，检查整条执行轨迹中有没有"问题步骤"。所谓问题步骤，是指那些既没有跟随战略指导、也没有实质性地推进任务目标的步骤——换句话说，就是既违背了计划、又没有任何实际贡献的废棋。一旦某个步骤被认定为"问题步骤"，AI就会在这个步骤上额外获得一个惩罚分数（参数κ=0.1，就是扣除0.1分）。

这个机制的巧妙之处在于，AI是在批判自己——它既是"运动员"，又是自己的"裁判员"。研究团队将这种方式定义为"LLM-as-a-judge"（用大语言模型当裁判）的一种应用。不同于很多方法需要额外训练一个独立的裁判模型，StraTA直接用同一个AI来完成自我评估，不增加额外的模型开销。实验证明，加入这一机制后，AI在WebShop购物环境中的成功率从64.0%提升到了66.7%。

六、三场考试的成绩单：StraTA在真实任务中表现如何

研究团队在三个代表性的AI智能体测试平台上验证了StraTA的效果，涵盖了家庭操控、网络购物和科学实验三个完全不同的场景。

第一个测试环境叫ALFWorld，是一个纯文字描述的模拟家居场景。AI扮演一个机器人助手，需要根据指令完成各种家务任务，比如"把纸巾盒放到床头柜上"或者"把苹果加热后放进冰箱"。每个任务最多允许50步操作。这个测试涵盖了六类子任务：捡取物品、在特定条件下查看物品、清洁物品、加热物品、冷却物品、以及把两件物品放到同一地点。

第二个测试环境是WebShop，模拟了一个真实的网购场景。AI需要根据用户的详细购物要求（包括材质、尺寸、价格等多维度条件），在一个有50个商品结果的虚拟商城中，通过搜索、浏览、比较，最终选购到最符合要求的商品。每个任务最多15步。

第三个测试环境是SciWorld，是三个环境中最难的一个。它模拟了小学五年级水平的科学实验场景，AI需要执行各种程序性推理任务，比如测量物体属性、进行化学混合、寻找特定物品、以及判断哪种动物寿命最长等。每个任务最多20步。

在ALFWorld测试中，使用7B（70亿参数）规模的基础模型时，StraTA达到了93.1%的整体成功率，比此前最强的基于强化学习的方法GiGPO（Group-in-Group Policy Optimization）高出了约2.3个百分点。在六类子任务中，"查看"类任务的成功率从82.7%大幅提升到了92.3%，"捡取两件物品"类任务也从79.2%提升到了81.9%。

在WebShop测试中，StraTA的优势更加显著。7B模型的整体成功率达到了84.2%，而GiGPO的成功率只有72.8%，提升幅度高达11.4个百分点。即便是使用参数量少得多的1.5B（15亿参数）模型，StraTA也达到了82.5%的成功率，比GiGPO的1.5B版本高出了17.5个百分点——这说明StraTA的框架设计本身带来了实质性的效率提升，而不仅仅是靠更大的模型取胜。

在最具挑战性的SciWorld测试中，StraTA的7B模型达到了63.5%的综合得分。要知道，GPT-5.1这样的顶尖商业模型在这个测试上的得分只有43.0%，Claude-4-Sonnet得分57.4%，Gemini-2.5-Flash得分49.6%——StraTA以一个开源的7B规模模型，在综合得分上超越了所有这些商业闭源模型。尤其值得一提的是，在"寿命推断"（Lifespan）这个子任务上，StraTA取得了满分100.0%的完美成绩。

七、拆开看看：每个零件究竟贡献了多少

为了验证StraTA各个组成部分的实际效果，研究团队做了一组精心设计的消融实验——也就是逐个拆掉某个组件，看看缺少它之后性能会下降多少。

实验使用的是3B规模的基础模型（Qwen2.5-3B-Instruct），在ALFWorld和WebShop两个环境上进行测试，共设计了三个对比版本。第一个版本叫"Vanilla"（朴素版），只保留StraTA的核心框架——战略生成、分层训练和战略质量估计——不加入任何额外技巧。第二个版本叫"Diverse"，在朴素版基础上只加入多样性采样技巧。第三个版本叫"Judgment"，在朴素版基础上只加入批判性自我判断机制。

实验结果显示，即便是朴素版，在ALFWorld上已经达到了79.0%的成功率，在WebShop上达到了64.0%，都显著优于没有战略引导的普通GRPO方法。加入多样性采样后，ALFWorld的成功率大幅跃升至87.9%，提升了近9个百分点，而WebShop的成功率提升相对有限（从64.0%到64.6%）。加入自我判断机制后，WebShop的成功率从64.0%提升到66.7%，而ALFWorld的提升相对有限。最终把两个技巧都加上，ALFWorld达到88.6%，WebShop达到73.4%——两个技巧的效果在很大程度上是互补的，各自主攻不同类型的任务。

研究团队还分析了关键超参数的影响。过采样比例σ越大，效果越好——从σ=1（不做多样性采样）到σ=8，ALFWorld的成功率从81.9%一路提升到88.6%，印证了策略多样性的重要性。战略质量评估时取前多少比例的表现（参数δ）也有讲究：δ=0.1（只看最好的10%）因为样本太少导致估计不稳定，δ=1.0（取全部平均）因为被低质量执行拖累而效果变差，δ=0.5（取最好的前50%）表现最佳。自我判断惩罚的权重κ也需要适中，太小（0.01）则效果不明显，太大（1.0）则过度依赖自我判断的准确性，反而引入噪音，κ=0.1最为合适。

八、算力开销：好用的方法贵不贵

任何一个新方法，如果训练成本大幅增加，实用价值就会大打折扣。研究团队也专门分析了StraTA的计算效率。

从理论角度看，StraTA对每个任务会生成N个战略，每个战略下执行M条轨迹，每条轨迹最多H步，所以总共需要N×M×H步行动交互，以及N×M次自我判断。当H足够大时（在任务较长的情况下，H通常是主要开销），N×M次判断相当于N×M条轨迹总步数的1/H，可以忽略不计。多样性采样用到了一个轻量级的文本嵌入模型（MiniLM-L6）来计算语义相似度，这个模型非常小，每次计算只需要几毫秒。因此，StraTA的总体计算量与普通GRPO方法（组大小设为N×M时）基本相当。

从实测数据看，每个训练步骤的实际时间：PPO需要约1758秒（即约29分钟），GRPO只需要约418秒（约7分钟），StraTA需要约580秒（约10分钟）。StraTA比GRPO慢约38%，但远比PPO快得多，而且性能提升幅度远超这点额外时间的代价。在StraTA内部，战略生成阶段约花202秒，训练阶段约175秒，多样性采样只需约6秒，自我判断只需约6秒——两个核心技巧加起来的额外开销仅约12秒，不到主体流程的4%。

说到底，StraTA这项研究解决的是一个看似简单、实则根本性的问题：AI在做复杂任务时应该先想清楚大方向，而不是每一步都从零开始判断。研究团队通过引入"战略先行"的设计，再配上分层训练、多样性探索和自我反思三个机制，让AI智能体在多个测试中取得了显著的进步，甚至以小规模的开源模型超越了顶尖的商业AI系统。

当然，这项研究本身也坦承了局限性。最核心的一点是：StraTA在任务开始时生成战略并将其固定，但如果任务执行过程中遇到了完全意外的情况（比如网购时发现所有商品都缺货），固定的战略就可能变成束缚。研究团队也指出了下一步的方向，包括实现"动态战略修订"（执行过程中能更新战略）、探索更丰富的战略表现形式，以及将这套框架推广到更广泛的AI智能体任务中。

归根结底，这项研究揭示了一个对人类和AI都通用的道理：在复杂任务中，事先规划与边走边想同样重要——甚至更重要。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2605.06642查阅完整原文。

Q&A

Q1：StraTA框架中的"战略"具体是什么形式？AI是怎么生成的？

A：StraTA中的"战略"是一段简短的自然语言文本，由AI在看到任务描述后自主生成。它不是分步骤的详细指令，而是对整个任务的高层次规划，比如"先搜索关键词定位候选产品，再根据价格和规格筛选，找到最符合条件的购买"。这段文字在任务开始时生成一次，之后固定不变，在每个行动步骤中都会作为背景信息提供给AI，帮助其保持方向一致性。

Q2：StraTA和普通强化学习方法GRPO相比，最本质的区别是什么？

A：普通GRPO方法在每个任务上只生成多条完整执行轨迹，然后根据成败比较这些轨迹。StraTA则在此基础上增加了一层结构：先生成多个不同的"战略"，再在每个战略下分别执行多次。这样既能比较不同战略之间的优劣（战略层面），又能比较同一战略下不同执行方式的好坏（行动层面），形成了双层学习信号，让AI能分别优化"想什么"和"怎么做"两个能力。

Q3：StraTA在SciWorld上为什么能超过GPT-5.1这样的商业顶尖模型？

A：SciWorld是一个需要执行多步程序性推理的科学实验任务，任务链条长、需要全局规划能力。GPT-5.1等商业模型虽然知识储量大，但在这种需要长时序贯决策的任务中，没有经过专门的强化学习训练，容易出现短视和行为不一致的问题。StraTA通过战略引导和专项强化学习训练，让7B规模的开源模型在这类任务上的规划连贯性大幅提升，最终在综合得分上以63.5%超越了GPT-5.1的43.0%和Claude-4-Sonnet的57.4%。